1
Dari Pengulangan ke Perhatian: Mengatasi Keterbatasan Pemodelan Berurutan
EvoClass-AI003Lecture 6
00:00

Dari Pengulangan ke Perhatian: Mengatasi Keterbatasan Pemodelan Berurutan

Pemodelan berurutan tradisional sangat bergantung pada Jaringan Saraf Berulang (RNNs) dan variasi berbasis gerbang mereka (LSTM, GRU). Meskipun revolusioner untuk tugas urutan-ke-urutan awal, arsitektur ini mengalami masalah skalabilitas mendasar saat menangani ketergantungan panjang. Pengenalan mekanisme perhatian memberikan terobosan konseptual penting yang diperlukan untuk melampaui keterbatasan ini dan memungkinkan sistem NLP modern yang sangat efektif.

1. Masalah Ketergantungan Jarak Jauh

Dalam RNN, jalur ketergantungan antara token $t_i$ dan token $t_j$ harus melewati semua langkah antara secara berurutan. Hal ini memaksa sinyal gradien selama pembentukan mundur (backpropagation) untuk terus-menerus dikalikan melalui matriks bobot, menyebabkan penurunan cepat (gradien menghilang) dari sinyal, yang membuat hampir tidak mungkin untuk menyebar informasi bermanfaat atau sinyal kesalahan melintasi jarak jauh dalam urutan. Kompleksitas jalur adalah $O(N)$.

2. Hambatan Konteks Berukuran Tetap

Arsitektur standar pengkode-dekode sebelum adanya perhatian mengharuskan seluruh makna urutan sumber, terlepas dari panjangnya, dipadatkan menjadi satu vektor berdimensi tetap (vektor konteks, $C$). Hambatan ini sangat membatasi kemampuan model untuk mempertahankan semua informasi penting, terutama untuk input yang panjang atau kompleks, menghasilkan kehilangan informasi kritis selama fase dekoding.

Representasi Konseptual
Question 1
Why is the dependency path length in a standard RNN considered a major limitation for long sequences?
Path complexity is $O(1)$.
Path complexity is $O(N^2)$.
Path complexity is $O(N)$, causing vanishing gradients.
It prevents the use of LSTMs.
Question 2
In pre-Attention Seq2Seq models, what component represents the 'information bottleneck'?
The softmax layer.
The recurrent cell (e.g., GRU).
The fixed-size context vector derived from the encoder's final hidden state.
The input embedding layer.
Challenge: Conceptualizing Attention's Advantage
Comparing Structural Complexity
Consider a sequence of length $N$. We want to establish a dependency between token $X_i$ and token $Y_j$.

Contrast the dependency path length required by:
  • Traditional Recurrence (e.g., LSTM)
  • Attention Mechanism (Query-Key comparison)
Step 1
How does Attention fundamentally reduce the structural complexity of establishing distant dependencies?
Solution:
Attention creates a direct, non-sequential connection between any output token $Y_j$ and any input token $X_i$ by calculating a weight based on their vector similarity ($Q_j K_i^T$). The dependency path length is effectively $O(1)$ (a direct look-up), removing the constraint of linear path traversal imposed by recurrence ($O(N)$).